#eliminación de peligros

Replay fuera de política: desaprendizaje eficiente en LLM

Aprende cómo ReRULE usa replay off-policy para desaprender LLMs, reutilizando casos difíciles y mejorando retención un 21% sin sacrificar rendimiento.

2026-06-16 · 2 min